2025年11月7日

ハードウェア

616 文字

ローカルLLM向けGPU接続インターフェース徹底比較 |

ローカルLLM時代において、GPUの選び方だけでなく「接続方式」も性能を左右する重要な要素です。最新の記事「ローカルLLM向けGPU接続インターフェース徹底比較」では、PCIe直挿しとThunderbolt eGPUの帯域・実測性能を徹底検証。Thunderboltは手軽さと拡張性に優れる一方、帯域制限により10〜50％の性能差が生じるケースもあります。7B〜13BクラスのLLM推論には実用的ですが、大規模モデルや生成AI開発にはPCIe直挿しのワークステーション構成が最適。開発者・研究者必見のハードウェア選定ガイドです。

PCIe直挿し vs Thunderbolt eGPU

はじめに

ローカルLLM環境を構築するとき、どのGPUを買うかと同じくらい重要なのが、

そのGPUを 「どうやってホストマシンに接続するか」 です。

デスクトップなら：マザーボードの PCIeスロットに直挿し
ノートPCやNUCなら：Thunderbolt／USB4経由のeGPU

という選択肢になりますが、その違いは「ちょっと帯域が違う」レベルではありません。

帯域・レイテンシ・実ベンチマークの差が、LLM推論のスループットやレイテンシにじわじわ効いてきます。

本記事では、公開されているベンチマークや技術資料を元に、

PCIe直挿しとThunderbolt eGPUの帯域・レイテンシ
実ゲーム／GPGPUベンチでの性能低下の目安
ローカルLLM／生成AI用途でどこまで妥協できるか

を整理します。

第1章 PCIeとThunderboltの基本スペック比較

1.1 帯域の理論値をざっくり把握する

まずは「線の太さ」の話から。

PCIe（デスクトップでの標準接続）

PCI Expressの帯域（片方向：x16）の理論値はおおよそ以下です：ウィキペディア

規格	レーン数	理論帯域 (片方向)
PCIe 3.0	x16	約 31.5 GB/s
PCIe 4.0	x16	約 63.0 GB/s
PCIe 5.0	x16	約 126.0 GB/s

最近のコンシューマGPU（RTX 40シリーズなど）は、

物理x16スロットでも「電気的にはx8」動作のことも多く、

PCIe 4.0 x8 ≒ PCIe 3.0 x16 とほぼ同等（~32GB/sクラス）

と考えておけばだいたいOKです。

Thunderbolt 3 / 4 / 5（eGPUでよく使うやつ）

Thunderboltは「1本のケーブルで PCIe + DisplayPort などをトンネリングする」仕様なので、

カタログ値の 40Gbps / 80Gbps がそのままPCIeに使えるわけではありません。

代表的なポイント：

Thunderbolt 3
- 公称 40Gbps（双方向）
- PCIeとしては最大 4レーンのPCIe 3.0 (32Gbps) をトンネリング可能
- 実際に使えるPCIeデータ帯域はオーバーヘッド込みで 約 21〜25Gbps 程度とされるウィキペディア
Thunderbolt 4
- 同じく 40Gbps だが、常に PCIe 3.0 x4 の32Gbpsをデータに利用可能（TB3のようなビデオ優先の固定予約がない）Apple Discussions
Thunderbolt 5
- 最大 120Gbps（ブーストモード）だが、GPU用のPCIe帯域としては依然 x4相当の世界で、
  
  デスクトップのPCIe x16には届かないHP® Store

まとめると、「GPUに使える実効帯域」という観点ではだいたいこんなイメージです：

接続	実効PCIe帯域のイメージ
PCIe 4.0 x16	~63 GB/s
PCIe 4.0 x8	~32 GB/s
Thunderbolt 3/4 eGPU	PCIe 3.0 x4 相当 (~4 GB/s)
Thunderbolt 5 eGPU	PCIe 4.0 x4 相当だが、プロトコルオーバーヘッドあり

つまり、Thunderbolt eGPUは「GPU側だけハイエンドでも、線は x4 世代」 という前提になります。

第2章実ベンチから見る Thunderbolt eGPU の性能低下

「帯域が1/4なら性能も1/4？」というと、実はそう単純ではありません。

GPUの仕事の大半は VRAMの中だけで完結するので、

インターフェース帯域をフルに使い切るケースはそこまで多くないからです。MacRumors Forums+1

2.1 一般的なeGPUベンチの傾向

いくつかの公開ベンチ・検証レポートから、Thunderbolt eGPUの性能低下をざっくり拾うと：

RTX 3090 をデスクトップ直挿し vs Thunderbolt eGPU で比較したBlenderベンチ

→ eGPU側はデスクトップの 約78% のスコア（≒22%ダウン）Blender Artists Community
Mac + TB3 eGPU の各種ベンチまとめ

→ GPUがハイエンドになるほど、TB3側の性能ドロップが大きくなり、

おおよそ 20〜30%程度の低下 が多いeGPU.io
ゲーム用途の一般論（HPのeGPUガイド）

→ 「デスクトップPCIeと比べて 10〜20%の性能低下、内蔵ディスプレイを使うとそれ以上落ちる」HP® Store

また、内蔵ディスプレイ vs 外付けディスプレイ でも差があり、

Thunderbolt eGPU → 外付けモニタ直結：

内蔵ディスプレイに戻すパスが不要になり、最大30%以上パフォーマンスが向上するケースも報告されています。eGPU.io

2.2 極端なケース：帯域依存の高いワークロード

Stable Diffusion など、大量のテクスチャ／特徴マップを頻繁にCPU側とやりとりするようなワークロードでは、

「PCIe 4.0 x16 + RTX 4090」と比べて

Thunderbolt eGPUで50%近い性能低下を観測した事例もあります。Reddit

このあたりから、

帯域依存の強いワークロードほど

Thunderbolt eGPU のペナルティが大きくなりやすい

という方向性が見えてきます。

第3章ローカルLLM／生成AIでの影響をどう見るか

では、本題の ローカルLLM ではどうか？

ここは少し性質が違います。

3.1 LLM推論のデータ流れの特徴

多くのLLM推論は、おおむねこんな流れです：

モデル重み（数GB〜数十GB）を 起動時に一度だけVRAMにロード
推論中は、トークナイズ済みの入力と中間状態（KVキャッシュ）を

ほぼVRAM内で更新・参照し続ける
CPU側とのやり取りは、「入力テキスト」と「出力トークン列」が中心で、量は比較的少ない

つまり、**帯域を一番使うのは「起動時のモデルロード」**であり、

推論ループに入ってしまえば、インターフェース帯域よりGPUの演算性能・VRAM帯域の方が支配的になるケースが多いです。

このため、ローカルLLMの推論だけを見ると：

モデルが 完全にVRAM内に収まる
KVキャッシュなどもVRAM内で完結
毎トークンごとにCPUと巨大なテンソルをやりとりしない

という前提なら、Thunderbolt eGPUでも性能低下は 10〜20% 程度で済むことが多い、というのが実務上の感覚です（ゲームやBlenderベンチの結果からの類推）。

3.2 どんなときにThunderboltの帯域がボトルネックになるか

逆に、以下のようなケースでは帯域の影響が大きくなります：

VRAMに入りきらない大規模モデル

→ 重みの一部やKVキャッシュをCPUメモリ側に逃がしている場合、

毎トークンごとに Thunderbolt 越しの転送が発生し、スループットが大きく低下しうる。
マルチGPU／分散推論で、GPU間通信をホスト経由でやっている構成

→ GPU間のAllReduce的な通信が全て x4帯域に乗るので、

PCIe直挿しやNVLink構成に比べて明確にスケールしにくくなる。
大量の埋め込み計算＋CPU側データベース

→ 1リクエストあたりのトークン数は少ないが、

画像やベクトルを行き来させる頻度が高い場合、TB側のI/Oが目立ってくる。

第4章 PCIe直挿し vs Thunderbolt eGPU：ローカルLLM視点のまとめ

ここまでの情報を、ローカルLLM／生成AI用途に絞って整理します。

4.1 性能インパクトのざっくり目安

前提：同じGPUを、PCIe直挿しとThunderbolt eGPUで使い比べた場合

用途・ワークロード	性能低下の目安（eGPU vs PCIe直挿し）	コメント
軽〜中量級 LLM推論（7B〜13B、VRAM内完結）	おおよそ 10〜20% ダウン	体感は「ちょっと遅い」程度で済むことが多い
大規模LLM（30B〜70B、VRAMギリギリ〜不足）	20〜40% ダウンもあり	CPUメモリスワップが発生すると一気に悪化
Stable Diffusionなど画像生成（高解像度・大バッチ）	20〜50% ダウン	転送量が多く、帯域差が顕著に効くReddit+1
ゲーム・3Dレンダリング（外付けモニタ）	10〜30% ダウン	GPU性能が支配的だが、高FPS域ほど差が出るHP® Store+1
ゲーム（ノートPC内蔵ディスプレイ駆動）	20〜40% ダウン	描画結果がTB経由で戻るため、さらに不利eGPU.io

4.2 接続方式ごとの「向き・不向き」

Thunderbolt eGPU がアリなケース

既に Thunderbolt 3/4/5対応ノートPCやNUCを持っている
扱うモデルが 7B〜13Bクラス中心 で、VRAM内に収まる
主用途が LLM推論・軽いLoRA学習・コード補完 など
「最高効率」よりも

・モバイル性／省スペース・既存マシンの延命・導入の手軽さ を優先したい

PCIe直挿し（一体型ワークステーション）が必須に近いケース

30B〜70Bクラス以上のモデルを常用したい
Stable Diffusionや動画生成など、帯域依存の強いワークロードがメイン
マルチGPU構成でスケールさせたい（NVLinkやPCIeスイッチを活用する）
サーバ用途で 24/7稼働させたい（Thunderboltはホットプラグ前提のコンシューマ寄り）

第5章実際に構成を決めるときの指針

最後に、「自分がどっちを選ぶべきか」を判断するためのチェックリストです。

5.1 Thunderbolt eGPUを選んでよいかチェック

手元のPCが Thunderbolt 3/4/5 対応 である
主に使うモデルは 7B〜13Bクラス（Q4〜Q6量子化でVRAMに収まる想定）
多少の性能低下（PCIe直挿し比で 1〜2割遅い）は許容できる
ノートPCやNUC中心で運用したい／省スペースを重視
eGPUエンクロージャのコスト（4〜9万円前後）を許容できる

5.2 PCIe直挿しワークステーションを選ぶべきチェック

30B以上のモデルや、複数モデルを同時稼働させたい
将来的に マルチGPUに拡張する可能性がある
LLMだけでなく、画像生成・動画生成・レンダリングもヘビーに使う
10〜20%の差でも「積み重なると無視できない」と感じる規模のワークロード
シャーシ／電源／冷却を含めた自作・ワークステーション構築に抵抗がない

結論

帯域面だけ見ると

Thunderbolt eGPUは PCIe 4.0 x16 に比べて 1/3〜1/4 程度の帯域しか使えません。ウィキペディア+2ウィキペディア+2
しかし実際のベンチでは、
- ゲームやBlenderでは だいたい 10〜30% 程度の性能低下
- 帯域依存の強いStable Diffusionなどでは 最大50%程度の低下
  
  という結果が多く報告されています。Blender Artists Community+2eGPU.io+2
ローカルLLM推論用途だけを考えると、

モデルがVRAMに収まり、CPUメモリとの往復が少ない限り、 Thunderbolt eGPUでも「少し遅い程度」で実用範囲に収まることが多いです。

一方で、ハイエンドローカルLLM環境を本気で作るつもりなら、

十分なVRAMを持つGPUを PCIe直挿し
可能なら マルチGPU＋NVLink／高速PCIeスイッチ
大容量・高速NVMeと十分な電源／冷却

という、昔ながらの「ちゃんとしたワークステーション構成」が、今でも結局いちばん強い選択肢であることは変わりません。

一覧に戻る

ローカルLLM向けGPU接続インターフェース徹底比較 |

PCIe直挿し vs Thunderbolt eGPU

はじめに

第1章 PCIeとThunderboltの基本スペック比較

1.1 帯域の理論値をざっくり把握する

PCIe（デスクトップでの標準接続）

Thunderbolt 3 / 4 / 5（eGPUでよく使うやつ）

第2章 実ベンチから見る Thunderbolt eGPU の性能低下

2.1 一般的なeGPUベンチの傾向

2.2 極端なケース：帯域依存の高いワークロード

第3章 ローカルLLM／生成AIでの影響をどう見るか

3.1 LLM推論のデータ流れの特徴

3.2 どんなときにThunderboltの帯域がボトルネックになるか

第4章 PCIe直挿し vs Thunderbolt eGPU：ローカルLLM視点のまとめ

4.1 性能インパクトのざっくり目安

4.2 接続方式ごとの「向き・不向き」

Thunderbolt eGPU がアリなケース

PCIe直挿し（一体型ワークステーション）が必須に近いケース

第5章 実際に構成を決めるときの指針

5.1 Thunderbolt eGPUを選んでよいかチェック

5.2 PCIe直挿しワークステーションを選ぶべきチェック

結論

ローカルLLM向けGPU接続インターフェース徹底比較 |

PCIe直挿し vs Thunderbolt eGPU

はじめに

第1章 PCIeとThunderboltの基本スペック比較

1.1 帯域の理論値をざっくり把握する

PCIe（デスクトップでの標準接続）

Thunderbolt 3 / 4 / 5（eGPUでよく使うやつ）

第2章 実ベンチから見る Thunderbolt eGPU の性能低下

2.1 一般的なeGPUベンチの傾向

2.2 極端なケース：帯域依存の高いワークロード

第3章 ローカルLLM／生成AIでの影響をどう見るか

3.1 LLM推論のデータ流れの特徴

3.2 どんなときにThunderboltの帯域がボトルネックになるか

第4章 PCIe直挿し vs Thunderbolt eGPU：ローカルLLM視点のまとめ

4.1 性能インパクトのざっくり目安

4.2 接続方式ごとの「向き・不向き」

Thunderbolt eGPU がアリなケース

PCIe直挿し（一体型ワークステーション）が必須に近いケース

第5章 実際に構成を決めるときの指針

5.1 Thunderbolt eGPUを選んでよいかチェック

5.2 PCIe直挿しワークステーションを選ぶべきチェック

結論

第2章実ベンチから見る Thunderbolt eGPU の性能低下

第3章ローカルLLM／生成AIでの影響をどう見るか

第5章実際に構成を決めるときの指針

第2章実ベンチから見る Thunderbolt eGPU の性能低下

第3章ローカルLLM／生成AIでの影響をどう見るか

第5章実際に構成を決めるときの指針